Aufgezeichnete Vorträge


Von diskreten zu kontinuierlichen Zustandsräumen: Eine Untersuchung des Ehrenfest-Prozesses in Diffusionsmodellen


Lorenz Richter

24th July 2024


Auf der International Conference on Machine Learning (ICML) 2024 präsentierte Lorenz Richter zusammen mit zwei weiteren Forschungskollegen Ludwig Winkler und Manfred Opper kürzlich zuvor veröffentlichte Forschungsergebnisse. Abstract (in Englisch): Generative modeling via stochastic processes has led to remarkable empirical results as well as to recent advances in their theoretical understanding. In principle, both space and time of the processes can be discrete or continuous. In this work, we study time-continuous Markov jump processes on discrete state spaces and investigate their correspondence to state-continuous diffusion processes given by SDEs. In particular, we revisit the Ehrenfest processEhrenfest process, which converges to an Ornstein-Uhlenbeck process in the infinite state space limit. Likewise, we can show that the time-reversal of the Ehrenfest process converges to the time-reversed Ornstein-Uhlenbeck process. This observation bridges discrete and continuous state spaces and allows to carry over methods from one to the respective other setting, such as for instance loss functions that lead to improved convergence. Additionally, we suggest an algorithm for training the time-reversal of Markov jump processes which relies on conditional expectations and can thus be directly related to denoising score matching. We demonstrate our methods in multiple convincing numerical experiments.

Pretraining von KI-Modellen für die Erdbeobachtung: Transfer-Lernen und Meta-Lernen


Jan Macdonald (PhD)

31st May 2024


Beim Pretraining wird ein KI-Modell auf einem großen Datensatz trainiert, um allgemeine Merkmale zu erlernen, die dann für spezifische Aufgaben mit kleineren Datensätzen verfeinert werden können. Dadurch verringert sich die Notwendigkeit, für jeden neuen Anwendungsfall zeitintensive Datensätze zu beschaffen und zu trainieren, was die Kosten der Anwendungsentwicklung senkt. Während vortrainierte Modelle in der Bildverarbeitung und der Verarbeitung natürlicher Sprache weit verbreitet sind, werden sie für Satellitendaten und Erdbeobachtungsanwendungen nur in begrenztem Umfang eingesetzt. Unsere Untersuchung konzentriert sich auf den Vergleich der Fähigkeiten von Transfer-Learning- und Meta-Learning-Ansätzen für das Pretraining von KI-Modellen für Erdbeobachtungsaufgaben, insbesondere für die Klassifizierung von Kulturpflanzen und deren Potenzial, Erkenntnisse über verschiedene geografische Regionen hinweg zu verallgemeinern.

Automatisierung von Entscheidungsprozessen mit Large Language Models


Fabian Dechent

31st May 2024


Large Language Models (zu Deutsch: Sprachmodelle) beeindrucken durch ihre Fähigkeit zur kontextbezogenen Texterzeugung, Logik und Schlussfolgerungen. Typischerweise besitzen solche Modelle, die auf Chatdaten trainiert sind, die bemerkenswerte Fähigkeit, ohne explizites weiteres Training auf die Lösung von in natürlicher Sprache beschriebenen Aufgaben ausgerichtet zu werden. Interessante Anwendungsfälle verknüpfen oft mehrere externe Datenquellen miteinander und sind durch einen komplexen mehrstufigen Entscheidungsprozess gekennzeichnet. In diesem Vortrag wird erörtert, wie durch die Vordefinition von Entscheidungsschritten und die Integration externer Datenfilterung vielschichtige Probleme in überschaubare, in sich geschlossene Sprachverarbeitungsaufgaben zerlegt werden können, die sich mit LLMs leicht lösen lassen.

Datenextraktion im Zeitalter von LLMs


Axel Besinger und Augusto Stoffel (PhD)

31st May 2024


In den letzten Jahren hat das Aufkommen von Large Language Models (LLMs) die Landschaft der Datenextraktion verändert. Diese LLMs verfügen über unvergleichliche Textverarbeitungsfähigkeiten und sind mit riesigen Datenmengen vortrainiert, was sie für Aufgaben der Informationsbeschaffung sehr effektiv macht. Traditionelle Methoden wie graphbasierte neuronale Netze und extraktive Modelle wurden jedoch aufgrund ihrer effizienten Ressourcennutzung bevorzugt. Trotzdem stellt sich die Frage: Wie schneiden LLMs im Vergleich zu diesen Modellen bei praktischen Datenextraktionsanwendungen ab? Dieser Vortrag zielt darauf ab, diese Frage zu klären, indem er eine umfassende Untersuchung der Vor- und Nachteile von LLMs im Vergleich zu extraktiven Modellen bietet. Ausgehend von unseren Projekterfahrungen und internen Forschungsergebnissen möchten wir die praktischen Auswirkungen der Verwendung von LLMs für die Datenextraktion erläutern und Einblicke in ihre Wirksamkeit, ihren Ressourcenbedarf und ihre Gesamtleistung in realen Szenarien geben. Durch diese Untersuchung werden die Teilnehmer ein tieferes Verständnis für die Rolle von LLMs in modernen Datenextraktions-Workflows und die Überlegungen, die mit ihrer Implementierung verbunden sind, gewinnen. Link zur Software für Informationsextraktion: smartextract ( https://smartextract.ai )

Erkennung von Anomalien in Gleisszenen (Bahnverkehr)


Maximilian Trescher (PhD)

31st May 2024


Im Rahmen der Brancheninitiative „Digitale Schiene Deutschland“ entwickelt unser Kunde Deutsche Bahn ein automatisiertes Fahrsystem für Züge. Als Teil der Bemühungen um ein solches System haben wir zusammen mit der Deutschen Bahn eine Machine-Learning-Lösung entwickelt, um anomale und gefährliche Objekte auf und um die Gleise mit Hilfe von Onboard-RGB-Kameras zu erkennen. Dieses System soll nicht nur Objekte innerhalb einer bestimmten Klasse (z. B. Personen, Signale oder Fahrzeuge) erkennen, sondern vielmehr in der Lage sein, jedes beliebige Objekt zu erkennen und danach zu bewerten, wie anormal es ist. In diesem Vortrag werden die Herausforderungen erläutert, verschiedene Ansätze vorgestellt und ein Überblick über die endgültige Lösung gegeben: Um Objekte von möglicherweise unbekannten Klassen zu erkennen, haben wir eine einzigartige Pipeline entwickelt, die mehrere Komponenten des maschinellen Lernens enthält, darunter ein Modell zur monokularen Tiefenschätzung, eine Segmentierungsstufe, Modelle zur Bildeinbettung und ein Modell zur Erkennung von Anomalien. Als Datensatz stellt uns die Digitale Schiene Deutschland OSDAR23 zur Verfügung, ein offener Datensatz, der 45 Szenen enthält. Jede Szene enthält Bilder, die von mehreren RGB-Kameras und Infrarotkameras aufgenommen wurden, sowie Radar- und Lidar-Daten. Dieser Datensatz enthält Annotationen für zwanzig Objektklassen, die wir sowohl für die Feinabstimmung unseres Modells als auch für die Bewertung der Endergebnisse verwenden. Außerdem erhielten wir Zugang zu einer größeren Menge nicht annotierter Daten, die für das selbstüberwachte Lernen verwendet wurden.

Diffusionsbasierte generative Modelle als Optimalsteuerungsprobleme


Lorenz Richter

16th May 2024


Im Mai 2024 präsentierte Lorenz Richter seine Arbeit über diffusionsbasierte generative Modelle auf dem Machine Learning and Dynamical Systems Seminar des Alan Turing Institute London. Abstract (in Englisch): This seminar will delve into the intersection of generative modeling via Stochastic Differential Equations (SDEs) and three pivotal areas of mathematics: stochastic optimal control, Partial Differential Equations (PDEs), and path space measures. This integration is foundational for both theoretical advancements and practical applications, such as transferring methods across fields or developing innovative algorithms for sampling from unnormalized densities. We introduce a variational framework that employs divergences between path space measures of time-reversed diffusion processes, drawing parallels to the classic Schrödinger bridge problem. This framework enables the use of novel divergence forms like the log-variance divergence, which avoids the pitfalls of the reverse Kullback-Leibler divergence and significantly enhances algorithmic performance across various methodologies.

Informationsextraktion mit BERT aus Freiformtexten


Jona Welsch

28th April 2023


Im Mittelpunkt des Vortrags von Jona Welsch steht der Einsatz von Deep Learning-Methoden wie BERT zur Extraktion von Informationen aus unstrukturiertem Text. Ein Projekt mit idealo dient als Fallstudie und zeigt, wie regelbasierte Algorithmen und Deep Learning kombiniert werden können, um Produktbeschreibungen in strukturierte Daten zu verwandeln. Der Vortrag befasst sich auch mit der Erstellung von schwach markierten Trainingsdaten, um den Markierungsprozess zu erleichtern.

Informationsextraktion: von Graph Neural Networks zu Transformer-Modellen


Augusto Stoffel

28th April 2023


Dieser Vortrag zielt darauf ab, zwei prominente Klassen von Modellen zu vergleichen, die bei der Informationsextraktion aus halbstrukturierten Dokumenten verwendet werden: Graph Neural Networks (GNNs) und spezialisierte transformatorbasierte Architekturen. Während Transformer für ihre Textverarbeitungsfähigkeiten bekannt sind und mit vortrainierten Gewichten geliefert werden, haben GNNs den Vorteil, dass sie viel weniger Rechenleistung benötigen. Ziel ist es, auf der Grundlage von Projekterfahrungen und interner Forschung zu bewerten, wie diese beiden Modelltypen in praktischen Szenarien abschneiden.

Domänenspezifische semantische Suche: das passende Dokument finden


Jakob Scharlau

28th April 2023


Der Vortrag von Jakob Scharlau befasst sich mit der Frage, wie maschinelles Lernen und vorab trainierte Sprachmodelle verwendet werden können, um Suchsysteme mit einem semantischen Verständnis von Sprache zu erstellen. Er behandelt aktuelle Techniken und Überlegungen zum Aufbau solcher Tools und enthält ein Beispiel für ein System, das auf der Grundlage einer einfachen Suchanfrage das richtige technische Dokument findet.

Ethik in NLP


Marty Oelschläger und Sara Zanzottera

1st December 2022


Dieser Vortrag behandelt zwei Hauptthemen. Der erste Teil befasst sich mit ethischen Erwägungen bei der Verarbeitung natürlicher Sprache (NLP). Es wird erörtert, wie Sprachmodelle entwickelt und verantwortungsvoll eingesetzt werden, und es werden Themen wie algorithmische Verzerrungen und die Auswirkungen automatisierter Sprachsysteme behandelt. Das zweite Teil des Talks bietet eine praktische Einführung in das Image Retrieval und erklärt die Techniken und Algorithmen, die das Suchen und Finden von Bildern auf der Grundlage von Inhalten, Metadaten oder beschreibenden Tags ermöglichen. Dies könnte Demonstrationen der Indexierung von Bildern, der Merkmalsextraktion und der Verwendung von Suchanfragen zur effektiven Navigation in großen Bilddatenbanken umfassen.

LaserSKI: Defekterkennung in der Produktion von Halbleiterlaser


William Clemens

11th May 2022


In diesem Vortrag stellte Dr. William Clemens unsere Arbeit zur Erkennung von Defekten bei der Herstellung von Halbleitern vor. Durch den Einsatz von Convolutional Neural Networks (CNNs) prüft das System Bilder von Halbleitern, um Defekte zu identifizieren und zu klassifizieren und so die Effizienz und Zuverlässigkeit der Qualitätskontrolle zu verbessern, mit dem Ziel, monotone manuelle Prüfungen zu reduzieren. LaserSKI war ein Projekt zusammen mit drei industriellen Herstellern von Laserdioden sowie dem Ferdinand-Braun-Institut und dem Leibniz-Institut für Höchstfrequenztechnik (FBH). Der Vortrag wurde auf den Applied Machine Learning Days (AMLD) 2022 gehalten.

ML für Remote Sensing: Satellitendaten automatisch analysieren


Moritz Besser und Jona Welsch

6th December 2021


Die Verfügbarkeit von Remote Sensing und insbesondere Satellitendaten ist in den letzten Jahren stark gewachsen. Gleichzeitig wird eine manuelle Auswertung dieser Informationen bei steigender Datenmenge immer ineffizienter. Moderne Machine Learning Methoden sind dafür prädestiniert diese Lücke zwischen großen verfügbaren Datenmengen und Expertenwissen zur Analyse zu schließen. Ihre Anwendung im Bereich Remote Sensing ermöglicht es Nutzern Erkenntnisse aus Satellitendaten zu ziehen und unternehmerisch zu nutzen. In unserem anstehenden Webinar geben Moritz Besser (Machine Learning Consultant) und Jona Welsch (Machine Learning Project Lead) einen Überblick über verfügbare Satellitendaten, Machine Learning Methoden zur deren automatischen Verarbeitung, sowie praktische Anwendungsfälle im Unternehmenskontext.
Webinar thumbnail

Echte Mehrwerte aus ML Projekten - unsere Erfolgsfaktoren


Petar Tomov und Philipp Jackmuth

26th October 2021


Die Fortschritte der letzten 10-15 Jahre in Machine-Learning (ML) sind so beeindruckend, dass auch viele Firmen in Deutschland mittlerweile eigene Abteilungen für diesen Bereich aufgebaut haben. Wir durften einige dieser Firmen in den letzten Jahren unterstützen, u.a. bei der Überführung von Proof-of-Concepts (POCs) in den Produktivbetrieb. In unserem anstehenden Webinar teilen Philipp Jackmuth (Geschäftsführer von dida) und Dr. Petar Tomov (Machine Learning Project Manager) ihre Erfahrungen, welche die entscheidenden Faktoren sind, die erfolgreiche von gescheiterten ML Projekten unterscheiden.

Graph Neural Networks für die Informationsextraktion mit PyTorch


Augusto Stoffel

30th July 2021


In Augusto Stoffels Vortrag stellt er Graph Neural Networks (GNNs) vor, indem er sie mit Convolutional Neural Networks (CNNs) vergleicht. Er beschreibt, wie ein Bild als Graph dargestellt werden kann, um einen natürlichen Übergang zu den Grundlagen der GNN-Architektur zu schaffen. Der Vortrag behandelt dann Python-Implementierungen, insbesondere im PyTorch-Framework, und konzentriert sich auf GNN-Anwendungen bei der Informationsextraktion aus tabellarischen Dokumenten im Bereich NLP.
© unsplash/Raymond Rasmusson

Labeling-Tools - Der zweite Schritt auf dem Weg zur erfolgreichen Umsetzung eines NLP-Projekts


Ewelina Fiebig und Fabian Gringel

26th May 2021


Der Erfolg eines NLP-Projekts besteht aus einer Reihe von Schritten von der Datenvorbereitung bis zur Modellierung und Bereitstellung. Da es sich bei den Eingabedaten häufig um gescannte Dokumente handelt, werden bei der Datenaufbereitung zunächst Texterkennungswerkzeuge (kurz OCR) und später auch sogenannte Labeling-Tools eingesetzt. In diesem Webinar werden wir uns mit dem Thema der Auswahl eines geeigneten Kennzeichnungswerkzeugs befassen.
© unsplash/Markus Spiske

Semantische Suche und Verstehen von natürlichem Text mit Neuronalen Netzen: BERT


Konrad Schultka und Jona Welsch

26th May 2021


In this webinar you will get an introduction to the application of BERT for Semantic Search using a real case study: Every year millions of citizens interact with public authorities and are regularly overwhelmed by the technical language used there. We have successfully used BERT to deliver the right answer from government documents with the help of colloquial queries - without having to use technical terms in the queries.
© unsplash/Paul Volkmer

Automatisierte Beantwortung von Fragen mit neuronalen Netzen: BERT


Mattes Mollenhauer

26th May 2021


In diesem Webinar stellen wir eine auf dem BERT Modell basierende Methode zur automatisierten Beantwortung von Fragen vor. Die potentiellen Anwendungen sind vielfältig: die Ideen dieses Ansatzes können zum Beispiel in Chatbots, Informationsextraktion aus Texten und Q&A Sektionen von Websites verwendet werden. Als konkretes Beispiel gehen wir auf die Extraktion von Information aus biomedizinischen Forschungsarbeiten am Beispiel des offenen CORD-19 Datensatzes zur COVID-19 Forschung ein.
© Alina Grubnyak

Rekurrente neuronale Netze: Wie Computer lesen lernen


Fabian Gringel

26th May 2021


Anwendungen der Natürlichen Sprachverarbeitung wie die semantische Suche (Google), die automatisierte Textübersetzung (z.B. DeepL) oder die Textklassifikation (z.B. E-Mail-Spamfilter) sind aus unserem Alltag nicht mehr wegzudenken. In vielen Bereichen des NLP beruhen entscheidende Fortschritte auf der Entwicklung und Erforschung einer Klasse von künstlichen neuronalen Netzen, die besonders gut an die sequentielle Struktur natürlicher Sprachen angepasst sind: rekurrente neuronale Netze, kurz: RNNs. Das Webinar gibt eine Einführung in die Funktionsweise von RNNs und veranschaulicht deren Einsatz an einem Beispielprojekt aus dem Bereich der Legal Tech. Es schließt mit einem Ausblick auf die zukünftige Bedeutung von RNNs inmitten alternativer Ansätze wie BERT und Convolutional Neural Networks.

Erkennung von konvektiven Wolken in Satellitendaten


William Clemens

26th February 2020


Die Erkennung konvektiver Wolken ist für die Wettervorhersage und Klimastudien von entscheidender Bedeutung. William Clemens, Wissenschaftler für maschinelles Lernen bei dida, nutzt bei seiner Arbeit Convolutional Neural Networks (CNNs), um zu diesem Zweck geostationäre Satellitendaten zu analysieren. CNNs sind besonders geschickt bei der Bilderkennung und eignen sich daher für die Erkennung der komplexen Muster und Strukturen, die für konvektive Wolken charakteristisch sind. Clemens' Ansatz sieht vor, die CNNs auf großen Datensätzen von Satellitenbildern zu trainieren, die mit dem Vorhandensein von Konvektionswolken gekennzeichnet sind, so dass das Modell die Unterscheidungsmerkmale dieser Wolken erlernen kann.